บทนำสู่การรับรู้ด้วยคอมพิวเตอร์และการประมวลผลภาพดิจิทัล

การรับรู้ด้วยคอมพิวเตอร์ คือสาขาวิชาปัญญาประดิษฐ์ที่ทำให้คอมพิวเตอร์สามารถสร้างข้อมูลที่มีความหมายจากภาพและวิดีโอดิจิทัลได้อย่างมีประสิทธิภาพ โดยพยายามลดช่องว่างทางความหมายระหว่างข้อมูลพิกเซลแบบดิจิทัลกับความเข้าใจในระดับมนุษย์ช่องว่างทางความหมาย ระหว่างข้อมูลพิกเซลดิบและแนวคิดที่มนุษย์เข้าใจการประมวลผลภาพดิจิทัล เป็นโครงสร้างพื้นฐานของระบบการรับรู้ด้วยคอมพิวเตอร์ โดยเน้นการปรับเปลี่ยนและปรับปรุงสัญญาณภาพผ่านการแปลงพิกเซลเป็นพิกเซล เพื่อเตรียมข้อมูลสำหรับงานวิเคราะห์เชิงลึกในระดับต่อไป

หลักการสำคัญ

การแทนข้อมูล: ที่ระดับเครื่องจักร ภาพจะเป็น เทนเซอร์ มากกว่าภาพรวม ภาพขาวดำเป็นเมทริกซ์ 2 มิติของค่าความเข้ม ขณะที่ภาพสีเป็นเทนเซอร์ 3 มิติที่แสดงช่องสีแดง เขียว และน้ำเงิน (RGB) พร้อมมีขนาด $H \times W \times 3$
การเปลี่ยนรูปแบบเทียบกับการตีความ: การประมวลผลภาพดิจิทัลเน้นงานที่แปลงภาพเป็นภาพ เช่น การลดเสียงรบกวน การเพิ่มความคมชัด หรือการปรับสมดุลฮิสโตแกรม ส่วนการรับรู้ด้วยคอมพิวเตอร์เน้นงานที่แปลงภาพเป็นความรู้ เช่น การจำแนกประเภทวัตถุ การระบุตำแหน่ง และการแบ่งภาพ
แนวทางกลับด้านของการสร้างภาพ: การรับรู้ด้วยคอมพิวเตอร์สามารถมองได้ว่าเป็นการกลับด้านของกราฟิกส์คอมพิวเตอร์ ในขณะที่กราฟิกส์พยายามสร้างโลกที่มองเห็นได้จากโมเดลทางคณิตศาสตร์ การรับรู้ด้วยคอมพิวเตอร์พยายามคืนค่าโครงสร้าง 3 มิติและป้ายกำกับเชิงความหมายจากภาพฉาย 2 มิติ

ความท้าทายหลัก

ความท้าทายหลักในสาขานี้คือ ช่องว่างทางความหมาย ซึ่งเป็นช่องว่างระหว่างค่าพิกเซลระดับต่ำที่เครื่องจักรประมวลผล กับแนวคิดระดับสูงที่มนุษย์เข้าใจ

ตัวอย่างการเขียนโปรแกรมด้วยภาษาไพธอน

คำถามข้อที่ 1

กระบวนการใดจัดอยู่ในประเภทการแปลงภาพเป็นความรู้?

การประมวลผลภาพดิจิทัล

การรับรู้ด้วยคอมพิวเตอร์

กราฟิกส์คอมพิวเตอร์

การปรับสมดุลฮิสโตแกรม

คำถามข้อที่ 2

ที่ระดับเครื่องจักร โครงสร้างข้อมูลของภาพสีมาตรฐานคืออะไร?

เมทริกซ์ 2 มิติ

อาร์เรย์ 1 มิติ

เทนเซอร์ 3 มิติ / ช่องสี RGB

ลิสต์แบบเชื่อมโยง

กรณีศึกษา: ระบบวินิจฉัยทางการแพทย์

อ่านสถานการณ์ด้านล่างแล้วตอบคำถาม

โรงพยาบาลกำลังพัฒนาเทคโนโลยีระบบวินิจฉัยทางการแพทย์อัตโนมัติใหม่ เพื่อวิเคราะห์ภาพเอกซเรย์เพื่อตรวจหากระดูกหัก ระบบจะประมวลผลข้อมูลดิบจากเครื่องเอกซเรย์และส่งรายงานวินิจฉัยให้กับแพทย์ที่ทำการตรวจ

คำถาม

1. หากระบบใช้การเพิ่มคอนทราสต์เพื่อให้โครงสร้างกระดูกชัดเจนขึ้น นี่คือการประมวลผลภาพดิจิทัล (DIP) หรือการรับรู้ด้วยคอมพิวเตอร์ (CV)?

คำตอบ:
การประมวลผลภาพดิจิทัล การเพิ่มคอนทราสต์เป็นการแปลงภาพเป็นภาพที่ช่วยปรับปรุงคุณภาพภาพโดยไม่ต้องดึงความหมายเชิงความหมาย

คำถาม

2. หากระบบแจ้งเตือนพื้นที่เฉพาะว่าอาจมีกระดูกหัก ระบบกำลังทำหน้าที่อะไร?

คำตอบ:
การรับรู้ด้วยคอมพิวเตอร์ / การตรวจจับวัตถุ ระบบกำลังตีความเนื้อหาภาพเพื่อดึงความรู้ระดับสูง (ระบุตำแหน่งกระดูกหัก)

คำถาม

3. ทำไมการลดเสียงรบกวนจึงจำเป็นก่อนใช้อัลกอริธึมตรวจจับ?

คำตอบ:
เพื่อปรับปรุงคุณภาพสัญญาณและลดจำนวนผลลัพธ์ที่ผิดพลาดในขั้นตอนการตีความเชิงความหมาย เสียงรบกวนอาจถูกตีความผิดโดยอัลกอริธึม CV ว่าเป็นลักษณะจริงหรือขอบจริง